We summarize our TRECVID 2022 Ad-hoc Video Search (AVS) experiments. Our solution is built with two new techniques, namely Lightweight Attentional Feature Fusion (LAFF) for combining diverse visual / textual features and Bidirectional Negation Learning (BNL) for addressing queries that contain negation cues. In particular, LAFF performs feature fusion at both early and late stages and at both text and video ends to exploit diverse (off-the-shelf) features. Compared to multi-head self attention, LAFF is much more compact yet more effective. Its attentional weights can also be used for selecting fewer features, with the retrieval performance mostly preserved. BNL trains a negation-aware video retrieval model by minimizing a bidirectionally constrained loss per triplet, where a triplet consists of a given training video, its original description and a partially negated description. For video feature extraction, we use pre-trained CLIP, BLIP, BEiT, ResNeXt-101 and irCSN. As for text features, we adopt bag-of-words, word2vec, CLIP and BLIP. Our training data consists of MSR-VTT, TGIF and VATEX that were used in our previous participation. In addition, we automatically caption the V3C1 collection for pre-training. The 2022 edition of the TRECVID benchmark has again been a fruitful participation for the RUCMM team. Our best run, with an infAP of 0.262, is ranked at the second place teamwise.
translated by 谷歌翻译
当前的文本到视频检索方法(T2VR)经过培训和测试,并在视频捕获方向的数据集(例如MSVD,MSR-VTT和VATEX)上进行了测试。这些数据集的一个关键属性是,假定视频在短时间内被暂时预先修剪,而提供的字幕很好地描述了视频内容的要旨。因此,对于给定的配对视频和标题,该视频应该与标题完全相关。但是,实际上,由于查询尚不清楚,因此预处理的视频剪辑可能不包含足够的内容来完全满足查询。这表明文学与现实世界之间存在差距。为了填补空白,我们在本文中提出了一个新颖的T2VR子任务,称为部分相关的视频检索(PRVR)。未修剪的视频被认为是部分相关的W.R.T.给定的文本查询是否包含与查询相关的时刻。 PRVR旨在从大量未修剪视频中检索此类相关视频。 PRVR与单个视频时刻检索和视频语料库时刻的检索有所不同,因为后两个是要检索时刻而不是未修剪的视频。我们将PRVR作为多个实例学习(MIL)问题,同时将视频视为一袋视频片段和一袋视频帧。剪辑和帧表示不同时间尺度的视频内容。我们提出了一个多尺度的相似性学习(MS-SL)网络,该网络共同学习PRVR的剪辑规模和框架尺度相似性。在三个数据集(TVR,ActivityNet字幕和Charades-STA)上进行了广泛的实验,证明了该方法的可行性。我们还表明,我们的方法可用于改善视频语料库时刻的检索。
translated by 谷歌翻译
对于视网膜图像匹配(RIM),我们提出了SuperRetina,这是第一个具有可训练的键盘检测器和描述符的端到端方法。 SuperRetina以一种新颖的半监督方式接受了训练。一小部分(近100张)图像未完全标记,并用于监督网络以检测血管树上的关键点。为了攻击手动标记的不完整性,我们提出了进行性逐步扩展,以丰富每个训练时期的关键点标签。通过利用基于关键的改进的三重态损失作为描述损失,超级逆局以完全输入图像大小产生高度歧视性描述符。在多个现实世界数据集上进行了广泛的实验证明了超级丽菌的生存能力。即使手动标记被自动标记取代,因此使训练过程完全免费手动通道,超级retina也可以与多个强大的基线进行比较,以进行两个RIM任务,即图像注册和身份验证。 SuperRetina将是开源。
translated by 谷歌翻译
否定是一种常见的语言技能,使人类能够表达我们不想要的东西。自然,人们可能会期望视频检索能够以否定的方式支持自然语言查询,例如,发现坐在地板上而不是和狗一起玩的孩子的照片。但是,最先进的基于深度学习的视频检索模型缺乏这种能力,因为它们通常在视频说明数据集中受过培训,例如MSR-VTT和VATEX,而缺乏否定的描述。他们的检索结果基本上忽略了示例查询中的否定器,错误地返回的视频显示了孩子们玩狗。本文介绍了关于学习视频检索中否定的第一个研究,并做出如下的贡献。通过重新修复两个现有数据集(MSR-VTT和VATEX),我们提出了一个新的评估协议,以进行否定。我们建议一种基于学习的方法来培训否定视频检索模型。关键的想法是首先通过部分否定其原始标题来为特定的培训视频构造软性标题,然后对三胞胎进行双向约束损失。这种辅助损失将重量添加到标准检索损失中。重新组合基准的实验表明,通过拟议的方法重新训练剪辑(对比语言图像预训练)模型清楚地提高了其用否定处理查询的能力。此外,原始基准测试的模型性能也得到了改进。
translated by 谷歌翻译
众所周知,无监督的域适应性(UDA)可以在源域上进行模型的性能,以提高其在目标域上的性能。为了解决该问题,最近提出了无监督的域扩展(UDE),以像UDA一样适应目标域的模型,同时保持其在源域上的性能。对于UDA和UDE,量身定制为给定域的模型,假设它是源或目标域,可以很好地处理给定域中的样品。我们通过报告跨域视觉歧义的存在来质疑假设:由于两个域之间缺乏结晶的边界,一个域中的样品可以在视觉上接近另一个域。我们利用了这一发现,并因此在本文中提出了共同的教学(CT),其中包括基于知识蒸馏的CT(KDCT)和基于混音的CT(MICT)。具体来说,KDCT将知识从领导者网络和助理教师网络转移到学生网络,因此,学生将更好地处理跨域视觉歧义。同时,MICT进一步增强了学生的概括能力。对两个图像分类基准和两个驾驶场所分割基准的全面实验证明了该方法的可行性。
translated by 谷歌翻译
已经过了事实检查的虚假声明仍可在社交媒体上传播。为了缓解他们的持续传播,检测先前的事实检查的索赔是必不可少的。鉴于索赔,现有的工作侧重于提供由BM25检索的重新登录候选事实检查文章(FC-Temericles)进行检测的证据。然而,这些性能可能受到限制,因为它们忽略了FC-asticles的以下特征:(1)通常引用权利要求以描述所检查的事件,除了语义之外提供词法信息; (2)介绍或揭露索赔的句子模板在文章中是常见的,提供模式信息。忽略两个方面的模型仅利用语义相关性,并且可能被描述类似但无关事件的句子误导。在本文中,我们提出了一种新颖的Reranker,MTM(用于匹配的内存增强的变压器)来使用与事件(词汇和语义)和模式信息选择的关键句子进行排序FC-Tressiple。对于活动信息,我们提出了一个胭脂引导的变压器,胭脂了胭脂回归。对于模式信息,我们生成用于与句子匹配的模式向量。通过定影事件和模式信息,我们选择关键句子来表示文章,然后使用索赔,密钥句子和模式检查文章事实是否检查给定的索赔。两个真实数据集的实验表明MTM优于现有方法。人类评估证明,MTM可以捕获用于解释的关键句子。代码和数据集是https://github.com/ictmcg/mtm。
translated by 谷歌翻译
图像操纵检测的关键研究问题是如何学习对新型数据中的操纵敏感的宽大功能,而特定于防止在真实图像上的误报。目前的研究强调了敏感性,特异性主要忽略了。在本文中,我们通过多视图特征学习和多尺度监督来解决两个方面。通过利用篡改区域周围的噪声分布和边界伪影,前者旨在学习语义 - 不可知,更广泛的特征。后者允许我们从真实的图像中学习以通过依赖于语义分割损耗的现有技术来考虑非凡的图像。我们的想法是由我们术语MVSS-Net及其增强版MVSS-Net ++的新网络实现。六个公共基准数据集的综合实验证明了MVSS-Net系列的可行性,以实现像素级和图像级操作检测。
translated by 谷歌翻译
在本文中,我们在通过文本的视频检索的新上下文中重新访问\ emph {特征融合},是一个旧的主题。与以前的研究不同,仅在一端考虑特征融合,让它成为视频或文本,我们的目标是在统一框架内两端的特征融合。我们假设优化特征的凸组合是优选通过计算重大的多头自我关注来建模它们的相关性。因此,我们提出了轻质的注意力特征融合(Laff)。Laff在早期和晚期阶段和视频和文本的结尾执行功能融合,使其成为利用不同(现成)功能的强大方法。在四个公共数据集中进行广泛的实验,即MSR-VTT,MSVD,TGIF,Vatex和大规模的Trecvid AVS基准评估(2016-2020)显示了Laff的可行性。此外,LAFF实现了实现的,使其对现实世界部署的吸引力。
translated by 谷歌翻译
目前,现有的最先进的3D对象检测器位于两阶段范例中。这些方法通常包括两个步骤:1)利用区域提案网络以自下而上的方式提出少数高质量的提案。 2)调整拟议区域的语义特征的大小和汇集,以总结Roi-Wise表示进一步改进。注意,步骤2中的这些ROI-WISE表示在馈送到遵循检测标题之后,在步骤2中的循环表示作为不相关的条目。然而,我们观察由步骤1所产生的这些提案,以某种方式从地面真理偏移,在局部邻居中兴起潜在的概率。在该提案在很大程度上用于由于坐标偏移而导致其边界信息的情况下出现挑战,而现有网络缺乏相应的信息补偿机制。在本文中,我们向点云进行了3D对象检测的$ BADET $。具体地,而不是以先前的工作独立地将每个提议进行独立地改进每个提议,我们将每个提议代表作为在给定的截止阈值内的图形构造的节点,局部邻域图形式的提案,具有明确利用的对象的边界相关性。此外,我们设计了轻量级区域特征聚合模块,以充分利用Voxel-Wise,Pixel-Wise和Point-Wise特征,具有扩展的接收领域,以实现更多信息ROI-WISE表示。我们在广泛使用的基提数据集中验证了坏人,并且具有高度挑战的Nuscenes数据集。截至4月17日,2021年,我们的坏账在基蒂3D检测排行榜上实现了Par表演,并在Kitti Bev检测排行榜上排名在$ 1 ^ {st} $ in $ superge $难度。源代码可在https://github.com/rui-qian/badet中获得。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译